专家观点||中国英语学习者学术写作句法复杂度研究
摘 要:本研究采用10项句法复杂度指标, 对比研究了英语学习者和本族语者硕博士论文句法复杂度。对比结果显示, 不同水平英语使用者写作句法复杂度存在差异, 部分测量指标无法反映书面语体裁特征, 或可能与写作质量负相关。本研究还发现句法复杂度测量方法对写作经验的敏感度高于语言水平。
关键词:二语写作; 一语写作; 句法复杂度; 从属结构; 名词化
1. 引言
句法复杂度 (Syntactic complexity) , 又称句法成熟度或语言复杂度, 指的是语言产出中语言形式的变化和复杂化程度 (Bulté&Housen 2014;Crossley&Mc Namara 2014;Norris&Ortega 2009;Ortega 2003, 2012) 。二语习得研究中句法复杂度主要用于评估语言水平、描述语言能力以及衡量语言发展 (Ortega 2012) 。二语写作研究中, 句法复杂度是评估二语学习者语言发展的重要指标 (Lu 2011;Norris&Ortega 2009) 。先前相关研究至少隐含两个前提:1) 学习者写作句法复杂度随着其整体语言水平提高而增强 (Ai&Lu 2013;Crossley&Mc Namara 2014;Foster&Skehan 1996;Larsen-Freeman 1978) ;2) 句法复杂度呈“三段式线性”发展, 即遵循从并列从句、从属结构、到复杂从句和短语的发展顺序和模式 (Bulté&Housen 2014:53;Norris&Ortega 2009) 。
然而, 近年来句法复杂度研究又有新发现 (Bulté&Housen 2014;Crossley&Mc Namara 2014;Mancilla et al.2015) 。比如, 客观句法复杂度测量值与主观人工评分并不显著相关, 句法复杂度并不遵循“三段式线性”发展规律, 以及不同句法复杂度测量指标适用于不同语言水平二语写作评估等 (Bulté&Housen 2014) 。此外, 现有英语写作研究侧重词汇使用研究 (娄宝翠2017;杨越森、卫乃兴2017) , 且多以中低级语言水平二语学习者写作为研究对象 (鲍贵2009;曾祥敏2011) , 而中高级与高级语言水平二语学习者写作句法复杂度关注不足。因此, 仍需以高级英语学习者为研究对象开展句法复杂度研究, 以确证相关研究发现的适用范围。
在先前研究基础上, 本研究主要对比3组不同语言水平英语使用者 (包括中高级、高级二语学习者和本族语者) 硕博士论文句法复杂度。硕博士论文语言正式程度高, 且极具“概要风格” (Bulté&Housen 2014:56) , 是中高级、高级二语学习者二语写作典型代表。本研究具体探究3组不同语言水平英语学习者的写作句法复杂度的最佳指标, 以及各组间句法复杂度差异表现与程度。
2.研究背景
2.1 写作中句法复杂度测量维度与指标
句法复杂度涵盖多个方面的特征, 包括语言产出长度、并列结构、从属结构、名词化等 (Bulté&Housen 2012;Lu 2011) 。这些特征是预测英语学习者写作水平发展的指标, 目前已有40余种句法复杂度测量指标用于描述这些句法复杂度的特征, 包括句子平均长度 (MLS) 、T单位平均长度 (MLTU) 、子句平均长度 (MLC) 、T单位中子句数量 (C/TU) 、T单位中复杂T单位数量 (CTU/TU) 、子句中复合名词数量 (CN/C) 等 (Bulté&Housen 2012;Lu2011;Ortega 2003) 。
句法复杂度指标可进行人工或自动标注, 但人工标注有两大缺陷。其一, 费时费力, 无法实现大型语料库标注。其二, 主观因素影响较大, 易出错 (Crossley&Mc Namara 2014) 。相比而言, 采用计算机程序自动标注具有快速、客观的优势。因坚信人类判断比机器更精准, 一些学者仍使用人工标注法 (如Bulté&Housen 2014;Polat&Kim 2014) 。但随着复杂度标注软件的开发与发展, 如Biber Tagger (Biber 1988) 、Coh-Metrix (Graesser et al.2004) 、二语句法复杂度分析器 (L2 Syntactic Complexity Analyzer, 即L2SCA) (Lu 2010) 等, 更多研究选择自动标注法, 以确保标注快速、准确、可信。
早期句法复杂度研究主要关注语言产出长度方面 (Casanave 1994;Larsen-Freeman 1978;Nihanali 1981) , 但随着句法复杂度研究深入以及语料库语言学发展, 近期研究则聚焦以下4个方面:语言产出长度、并列结构数量、从属结构数量、短语复杂度 (Ai&Lu 2013;Crossley&McNamara 2014;Mancilla et al.2015) 。此外, 无论具体指标数量如何变化, 句法复杂度测量都会涵盖以上4个方面。
2.2 句法复杂度与二语写作水平
二语写作句法复杂度研究主要聚焦写作发展评估。二语写作文献总体发现写作中句法复杂度随着学习时间延长和语言水平提高而增强, 但对于具体语言水平对应的句法复杂度测量维度与方法, 以及句法复杂度越强是否等同于写作质量或语言水平越高等关键问题尚无定论 (Bulté&Housen 2014;Norris&Ortega 2009;Ortega 2012) 。
过去30年间许多纵向和横向实证研究证实, 随着学习时间延长, 二语学习者写作中句法复杂度增强。比如, Casanave (1994) 采用T单位分析法对日本英语学习者日志中句法复杂度进行3个学期纵向跟踪发现, 学习者日志中子句越来越长, 结构也越来越复杂。Ferris (1994) 的横向对比研究也发现, 高水平组论文中包含更多复杂句法结构 (比如分词结构, 关系从句, 状语从句等) 。
近期研究也有类似发现, 但并非体现在所有句法复杂度指标上 (Ai&Lu 2013;Bulté&Housen 2014;Lu 2011) 。比如, Lu (2011) 采用14项测量指标测量和对比了不同年级水平中国大学英语学习者写作句法复杂度, 发现其中10项测量指标在不同年级水平间存在显著差异。在该研究基础上, Ai&Lu (2013) 采用10项测量指标对比研究了中国英语学习者与本族语者写作句法复杂度, 该研究也发现, 随着语言水平提高, 除从属结构维度指标外, 大多数句法复杂度指标也相应提高。又如, Bulté&Housen (2014) 采用人工标注发现, 除从属结构指标 (包括复杂句比率、复合复杂句比率、子句比率) 外, 大多数句法复杂度指标值上升。Bulté&Housen (2014) 以及Crossley&Mc Namara (2014) 也均有类似发现。同时, Crossley&Mc Namara (2014) 采用Coh-Metrix自动标注发现, 二语学习者使用较多名词短语, 但除关系从句、that从句、非限制性不定式从句 (non-finite infinitive clauses) 外, 其他从句 (如并列子句、内嵌分句等) 使用较少。
简言之, 近期研究发现, 随着学习时间延长和语言水平提高, 二语学习者写作中复合名词短语显著增多, 而从属结构并未增多。这些研究发现与句法复杂度三段式发展模式 (即, 并列结构>从属结构>从句/短语复杂度) 不一致。Bulté&Housen (2014) 认为这种不一致可能暗示句法复杂度并不一定严格按“三段式线性”规律发展 (Norris&Ortega 2009) 。Crossley&Mc Namara (2014) 则认为从句更能预示口语而非书面语特征, 从句使用数量减少是学术写作发展的自然过程。
另外, 使用口语化结构来测量写作句法复杂度不妥。Biber et al. (2011) 对比本族语者口语与写作句法复杂度发现, 许多写作句法复杂度测量指标 (包括限制性从句) 更适于测量口语句法复杂度, 而非子句短语 (包括名词、副词短语) 更能预示书面语而非口语特征。Biber et al. (2011) 指出, 句法复杂度遵循从初级阶段限制性从句, 到中级阶段非限制性从句和从句嵌套短语, 到高级阶段名词修饰语从句和多种介词短语做后置修饰语多重嵌套结构发展顺序。然而, 该发展顺序以一语发展模式为基础, Ai&Lu (2013) 研究发现二语学习者使用的从属结构显著低于本族语者, Mancilla et al. (2015) 也发现, 虽然随着二语学习者水平提高, 其句法复杂度越接近于本族语者, Foster&Tavakol (2009) 也有类似发现, 但其从属结构维度指标值 (如子句和T单位中从句数量) 并未随之上升。因此, 若Biber等 (2011) 推论正确, 即从属结构更能预示口语特征, 为何本族语者写作中从属结构较多?对于该问题有三点尚不完善的解释:其一, 从属结构确实更能预示口语特征, 且二语学习者写作中从属结构数量少于本族语者。该解释的不足之处在于, 很少有人会相信二语学习者写作优于本族语者。其二, 从属结构并非口语的重要特征, 但却是书面语的标记特征。然而, 该解释与Biber et al. (2014) 发现和假设相左。其三, 从属结构测量方法存在缺陷, 即这些方法对从属结构复杂性存在误读。
二语写作中从属结构数量较少, 其主要原因可能在于二语学习者相对较多地使用了复杂名词结构, 如Mancilla et al. (2015) 发现研究生英语学习者写作中复杂名词结构多于本族语者。由于名词化结构是学术写作的重要特征, 这是否说明中高级英语学习者写作比本族语者更好?如果答案是否定的, 那么句法复杂度与写作质量是否有关联仍待探究, 如Bulté&Housen (2014) 与Crossley&Mc Namara (2014) 研究均发现, 句法复杂度与人工评分并无关联。Mancilla et al. (2015) 是唯一考察中高级和高级英语学习者写作句法复杂度的研究, 研究者们也可能质疑其研究的代表性, 这也是本研究的动机之一。
2.3 研究问题
为探究中高级和高级学习者写作句法复杂度及其与本族语者的差异, 本研究具体研究问题如下:
1) 中国中高级和高级英语学习者学术写作句法复杂度与本族语者是否有显著差异?这些差异主要体现在哪些指标维度?
2) 中国中高级和高级英语学习者学术写作句法复杂度是否具有显著差异?这些差异主要体现在哪些指标维度上?这些差异是否预示着学习者写作中的句法复杂度在从中高级向高级发展?
3) 基于前两个研究问题发现, 中高级和高级英语学习者学术写作句法复杂度的最佳测量指标有哪些?
3.研究方法
3.1 语料
本研究搜集2008~2010应用语言学硕博士论文, 共建成4个语料库:1) 中国硕士论文库 (以下简称CM) ;2) 中国博士论文库 (以下简称CD) ;3) 本族语者硕士论文库 (以下简称EM) ;4) 本族语者博士论文库 (以下简称ED) 。由于硕博士英语学习者有12至15年英语学习经历, 本研究界定硕士论文为中高级写作, 博士论文为高级写作。为最大程度确认本族语者身份, 本研究仅选取姓名为日耳曼或罗马起源的本族语者论文。为确保语料库的可比性, 每库均包含20篇硕士或博士论文, 每篇论文不含摘要、图表、标注、文献、附录和致谢。各库详细信息见表1。
3.2 句法复杂度测量指标与工具
本研究采用Lu (2010) 开发的二语句法复杂度分析器L2SCA, 主要原因有四:其一, 免费易获取;其二, 专门为二语句法复杂度分析设计, 可实现自动标注、识别与分析;其三, 已被广泛使用和认可, 如Ai&Lu (2013) 、Lu (2011) 、Mancilla et al. (2015) ;其四, Mancilla et al. (2015) 使用该工具分析数据的语言水平与本研究相似。此外, 虽然L2SCA涵盖14种句法复杂度测量指标, 但本研究仅采用最有效的10种指标 (Ai&Lu 2013;Mancilla et al.2015) , 见下页表2。
3.3 数据分析
本研究主要分四步进行数据分析。
4.研究结果与讨论
本部分先汇报4个库的句法复杂度统计分析结果, 然后根据具体研究问题汇报MannWhitney U检验结果并展开讨论。
4.1 描述统计结果
句法复杂度描述统计结果如以上表3所示。中国英语学习者与本族语者对比发现, 中国英语学习者硕士论文句法复杂度10项指标中有4项高于本族语者, 包括子句平均长度、子句中并列短语数量、句子中T单位数量、子句中复合短语数量;中国学习者博士论文句法复杂度10项指标中也有4项高于本族语者, 包括子句平均长度、子句中并列短语数量、子句中复合短语数量、T单位中复合短语数量。中国英语学习者不同水平对比发现, 除子句中复杂短语数量和T单位中子句数量两项指标外, 硕士论文句法复杂度其他8项指标均低于博士论文。为进一步探究这些差异是否具有显著性, 3.2小节将对各组数据进行Mann-Whiney U检验, 结果见表4。
与Mancilla et al. (2015) 发现一致, 本研究进一步证实学习者写作中从属结构更少。由此, 从属结构是否更能预示口语而非书面语特征问题仍然悬而未决。同时, 学习者与本族语者博士论文中从属结构并无显著差异, 这可能表明当学习者达到高级水平时, 其从属结构使用与本族语者相当。如果该假设成立, 则从属结构并非口语化特征。为此, 本研究假设某些从属结构 (如albeit和whereas引导的从句) 是高级英语学习者和本族语者写作而非口语的重要特征。通过检索COCA口语和学术写作子库中albeit和whereas引导的从句, 发现albei和whereas在学术写作每百万词出现频次分别为19.94和106.86, 而在口语中分别仅为2.34和14.66。同时, 我们也检索了口语中可能使用更频繁的because和if引导的从句, 发现because和if在学术写作每百万词出现频次分别为858和1394, 而在口语中则分别为1975和3112。由此推断, 从属结构用于描述口语或书面语特征时亟需细化指标。
此外, 与Mancilla et al. (2015) 一样, 本研究发现二语学习者博士论文10项句法复杂度指标中唯一显著差异指标为复合名词结构。中高级和高级英语学习者从属结构使用虽不及本族语者, 但其复合名词使用接近甚至超过本族语者。该发现是对“三段式”句法复杂度发展规律的挑战, 同时也需重新反思句法复杂度与写作质量的关系。
综合对比本研究与前人研究结果 (Mancilla et al.2015;Crossley&Mc Namara 2014) , 我们提出名词结构复杂度越高并不等同于写作质量越高的假设, 并通过分析学习者和本族语者博士论文中介词短语使用验证该假设。介词短语是复合名词短语的重要结构之一, 本研究主要考察of和in引导的连续介词短语。学习者博士论文中连续介词短语出现138次, 而本族语者仅为60次。对数似然率检验 (即G2检验) 结果进一步表明, 学习者和本族语者博士论文中复合名词结构存在显著差异 (G2=5480.70, p<.0001) 。那么, 介词短语数量越多是否预示写作质量越好?我们分析了学习者博士论文中连续介词结构使用情况。
(1) The dimensional approach describes the level of mastery of the various components of depth of vocabulary knowledge.
(2) What kind of patterns of disambiguation of the three types of lexical ambiguity could be concluded from the results...?
(3) ...but at the same time overcome the inadequacies of oversimplification of the early theories of lists of primitive theta roles.
(4) ...continued to play a small role in explaining change in individual difference in fifthgrade word reading skills.
(5) The results...show no significant improvements for the students in Group 2 in their practice in the four language skills.
(6) The overall frequency distribution of all these relative clauses embedded indifferent positions in the matrix clause in the three corpora is...
从以上6例可以看出, 名词嵌套结构提高了复合名词复杂度。但是, 同一嵌套结构重复使用使表述单一, 从而降低专业写作质量 (Heffernan&Lincoln 1996;Kirk 2010) 。Heffernan&Lincoln (1996:55) 就曾专门指出, 应避免重复使用不必要的名词结构, 如“It is a matter of the gravest possible importance to the health of anyone with a history of a problem with disease of the heart that he or she should avoid the sort of foods with a high percentage of saturated fats”中包含大量的不必要结构, 换成“Anyone with a history of heart disease should avoid saturated fats”后语言更精练。因此, 学习者博士论文中不必要名词结构可进行类似改写, 以使语言表述更精练。这些例子也表明, 复合名词结构越多不代表写作质量越高。因此, 语言教学中合理使用句法复杂度指标值得关注。此外, 从二语习得视角来看, 学习者过度使用名词结构可能与教学效果有关, 这是二语习得的普遍现象 (Gass et al.2013) 。
4.2 中高级与高级中国英语学习者差异
从表4可以看出, 中高级英语学习者写作中语言产出长度维度指标 (即T单位平均长度) , 以及从属结构数量维度指标 (即子句中从句数量和T单位中从句数量) 显著低于高级英语学习者。此外, 中高级学习者写作中短语复杂度维度指标 (即T单位中复合名词结构数量) 也显著低于高级学习者 (p=.055) 。该研究结果虽然与Ai&Lu (2013) 以及Lu (2011) 一致, 即句法复杂度存在语言水平差异, 但却与Mancilla et al. (2015) 不一致, 即不同语言水平句法复杂度差异不明显。原因可能有二:其一, Mancilla et al. (2015) 研究对象均为硕士研究生, 而本研究包括硕士和博士研究生, 语言水平差异可能更明显;其二, 句法复杂度对写作经验敏感度高于语言水平。本研究中博士比硕士研究生学习年限更长, 写作经验更丰富, 而Mancilla et al. (2015) 研究均为硕士研究生, 其学习年限相等, 写作经验相当。
此外, Bulté&Housen (2014) 发现4个月间英语学习者写作句法复杂度显著增强, 而词汇复杂度则无显著变化, 该研究发现也间接证实句法复杂度对写作经验敏感度高于语言水平的假设。4个月时限较短, 学习者语言水平显著提高可信度不高 (至少词汇复杂度未变化) , 因此, 学习者写作句法复杂度增强极有可能与写作经验有关。如该假设成立, 在写作教学中, 教师应重视写作经验, 给学生提供更多练习学术写作的机会。
4.3 句法复杂度测量指标
从以上两组对比结果来看, 现有大多数句法复杂度指标, 特别是语言长度和并列结构维度指标能清楚区分不同语言水平的句法复杂度。但有两个问题值得关注, 其一, 有些指标体裁范围过于笼统, 比如, 从句结构测量未细分口语与书面语具体指标;其二, 有些句法复杂度指标值越大, 可能预示写作质量越差, 比如复合名词维度的介词短语嵌套结构等。
为使写作中句法复杂度测量更准确且更有意义, 从属结构测量指标应细分至具体结构, 比如, 本研究发现albeit和whereas引导的从句多出现于书面语中, 而because和if引导的从句多出现于口语中。现有研究常笼统使用限制性和非限制性从句测量从属结构的复杂度 (Bulté&Housen 2014) , 然而非限制性从句一般出现于书面语中, 因此, 这种做法实则并不可取。此外, 重复使用某一介词引导短语结构可能降低写作质量, 应考虑将由同一介词引导的连续短语结构移除复合名词复杂度的测量范围。
5.结语
本研究主要有三点发现。其一, 中国英语学习者写作中从属结构和名词复杂度与本族语者相当, 但语言产出长度更短, 从属结构更少。其二, 中高级英语学习者写作中语言产出长度维度指标、从属结构数量维度指标以及短语复杂度指标均显著低于高级英语学习者。其三, 现有大多数句法复杂度指标, 特别是语言长度和并列结构维度指标能清楚区分不同语言水平的句法复杂度。本研究认为句法复杂度“三段式”发展规律有待商榷 (即并列结构>从属结构>复杂短语结构) , 写作经验对句法复杂度发展影响可能大于语言水平, 短语嵌套结构复杂度可能与写作质量负相关, 从属结构常用测量指标需细化以区分口语与书面语的句法复杂度特征。
本研究发现对教学有重要启示。首先, 学术英语写作教学中应给学生提供足够的写作训练机会, 以加强学习者写作的句法复杂度。其次, 应着重强调哪些从属结构更具书面语特征, 如从属连接词、关系从句、非限制性状语从句等。最后, 使用具体语言实例, 提醒学生勿滥用复合名词结构。
与Mancilla et al. (2015) 一样, 本研究数据也属于不限时写作, 未来研究可通过设计限时写作任务, 以进一步观测和描述中高级学习者句法复杂度的发展状况。
作者简介:
雷蕾,文学博士,华中科技大学外国语学院教授、博士生导师,华中科技大学“华中学者”。研究兴趣涉及二语习得、语料库语言学、学术英语、语言研究方法等领域,出版专著5部,在SSCI、CSSCI等期刊发表论文或书评50余篇。
延伸阅读
语科研究生同学群
语科Y编
欢迎留言并分享至朋友圈